草庐IT

scrapy -- CrawlSpider类

全部标签

python - 如何为通过 socksipy 发出请求的 scrapy 编写 DownloadHandler?

我正在尝试在Tor上使用scrapy。我一直在努力思考如何为使用socksipy连接的scrapy编写DownloadHandler。Scrapy的HTTP11DownloadHandler在这里:https://github.com/scrapy/scrapy/blob/master/scrapy/core/downloader/handlers/http11.py以下是创建自定义下载处理程序的示例:https://github.com/scrapinghub/scrapyjs/blob/master/scrapyjs/dhandler.py这是创建SocksiPyConnectio

python - Scrapy:将参数传递给 cmdline.execute()

我知道从命令行运行scrapy蜘蛛时如何传递参数。但是,当我尝试使用scrapy的cmdline.execute()从脚本以编程方式运行它时遇到问题。我需要传递的参数是我之前格式化为字符串的列表,就像这样:numbers="one,two,three,four,five"colors="red,blue,black,yellow,pink"cmdline.execute('scrapycrawlmyspider-aarg1='+numbers+'-aarg2='+colors)蜘蛛是...classMySpider(Spider):name="myS"def__init__(self,

python - 如何将多个参数传递给 Scrapy 蜘蛛(不再支持使用多个蜘蛛运行 'scrapy crawl' 时出错)?

我想将多个用户定义的参数传递给我的scrapyspyder,所以我试着关注这篇文章:Howtopassauserdefinedargumentinscrapyspider但是,当我遵循那里的建议时,我得到了一个错误:root@scrapycrawldmoz-aaddress=40-1848thst-aborough=4Usage=====scrapycrawl[options]crawl:error:running'scrapycrawl'withmorethanonespiderisnolongersupported我还尝试了引号的各种排列:root@scrapycrawldmoz-

python - 如何访问 Scrapy CrawlSpider 中的特定 start_url?

我正在使用Scrapy,特别是Scrapy的CrawlSpider类来抓取包含某些关键字的Web链接。我有一个很长的start_urls从连接到Django项目的SQLite数据库中获取其条目的列表。我想将抓取的Web链接保存在此数据库中。我有两个Django模型,一个用于启动url,例如http://example.com一个用于抓取的网络链接,例如http://example.com/website1,http://example.com/website2等等。所有抓取的Web链接都是start_urls中起始网址之一的子站点。列表。网络链接模型与起始url模型具有多对一关系,即网

python - 对从 Python 脚本中运行 Scrapy 感到困惑

正在关注document,我可以从Python脚本运行scrapy,但我无法获得scrapy结果。这是我的蜘蛛:fromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportHtmlXPathSelectorfromitemsimportDmozItemclassDmozSpider(BaseSpider):name="douban"allowed_domains=["example.com"]start_urls=["http://www.example.com/group/xxx/discussion"]defparse(sel

python - 为什么 scrapy 在尝试抓取和解析网站时会为我抛出错误?

下面的代码classSiteSpider(BaseSpider):name="some_site.com"allowed_domains=["some_site.com"]start_urls=["some_site.com/something/another/PRODUCT-CATEGORY1_10652_-1__85667",]rules=(Rule(SgmlLinkExtractor(allow=('some_site.com/something/another/PRODUCT-CATEGORY_(.*)',))),#Extractlinksmatching'item.php'a

javascript - 使用 Scrapy 获取 JavaScript 函数的参数

我想知道是否可以使用Scrapy从类似于此的代码中提取JavaScript函数的参数:varmap;functioninitialize(){varfenway=newgoogle.maps.LatLng(43.2640611,2.9388228);};}我想提取坐标43.2640611和2.9388228。 最佳答案 这是re()的地方方法会有所帮助。想法是定位script通过xpath()标记并使用re()提取lat和lng来自script标签的内容。来自scrapyshell的演示:$scrapyshellindex.html

python - 如何在scrapy中提交表单?

我尝试使用scrapy完成登录并收集我的项目提交计数。这是代码。fromscrapy.itemimportItem,Fieldfromscrapy.httpimportFormRequestfromscrapy.spiderimportSpiderfromscrapy.utils.responseimportopen_in_browserclassGitSpider(Spider):name="github"allowed_domains=["github.com"]start_urls=["https://www.github.com/login"]defparse(self,res

python - python3创建scrapy项目的方法

我使用MacOS,它有python2.7和python3.4。我使用pipinstall命令在python2.7中安装scrapy。Buy我也使用pip3install命令在python3.4中安装scrapy...看了scrapy.org的官方文档,知道scrapy只支持python2.7。当我使用命令scrapystartprojecttutorial时,它会返回下面的错误。如何在python2.7中使用命令scrapystartprojecttutorial?File"/Library/Frameworks/Python.framework/Versions/3.4/bin/sc

python - 蜘蛛scrapy中的读取设置

我写了一个小的scrapy蜘蛛。以下是我的代码classElectronicsSpider(scrapy.Spider):name="electronics"allowed_domains=["www.olx.com"]start_urls=['http://www.olx.com/']defparse(self,response):pass我的问题是,我想使用设置读取名称、allowed_domains和start_urls。我怎样才能做到这一点?我试过导入fromscrapy.settingsimportSettings也试过了def__init__(self,crawler):s